查看原文
其他

【1031】异常值的处理只有删除?

松哥统计 精鼎统计 2023-03-23

精鼎45/46期SPSS统计软件实战训练营(详情点击)

最好的投资是学习


异常值的出现在实际数据分析中经常会碰到。大家往往以为异常值最简单的方式就是直接删除。其实不然!
针对异常点的处理,有一类方法叫稳健回归。稳健回归的主要目的是检测异常点,并在异常点的情况下给出模型的稳健估计。
稳健回归
其基本思想是对不同数据点给予不同的权重,残差小的点给予较大权重,残差大的点给予较小的权重,也就是异常点的权重较小,以此来减少异常点对模型的影响。关于稳健回归的估计方法有M估计、LTS(least trimmed squares)估计、S估计和MM估计。1、M估计是Huber于1973年提出,是目前处理异常点问题最常用的估计方法,但是该法在存在高杠杆点时估计效果不佳。2、LTS估计是有Rousseeuw于1984年提出,可用于处理高杠杆值问题。3、S估计由Rousseeuw和Yashi于1984年提出,该法具有比LTS估计更高的统计效率。4、MM估计由Yashi于1987年提出,是对S估计的进一步发展,它将M估计与LTS估计/S估计结合起来,综合上述方法的优点。
那怎样在软件中实现呢?
本期介绍两种实现稳健回归的软件,一个是SAS软件,如果你觉得编程困难,那跳过看下一个实现软件。。。
一、SAS实现
稳健回归的SAS程序主要通过PROC robustreg过程实现,语句为:

Proc robustreg <选项>;

Model 因变量=自变量</选项>;

RUN;

1
Proc robustreg命令常用的选项
method=    指定稳健估计的方法,可选的有M、LTS、S、MM四种,默认的是method=M2
Model语句常用的选项
diagnostics 进行异常点诊断leverage   检测并列出杠杆点
二、DPS数据处理系统(菜单操作、功能强大,推荐尝试一下)
操作界面如下:

本篇作者,精鼎秦老师

松哥:异常点的处理经常困扰大家。本期浅浅而谈,给大家介绍了一种更加科学、保留更多数据信息的稳健回归方法,让大家对其有个印象。若今后再遇到异常值处理的情况,至少能够想到有该种方法,而不仅仅是删除异常点。统计思路很重要哦。


精鼎原创,欢迎转发,未经允许,谢绝转载!


统计思维与统计理论系列[1]

【1030】没有比较就没有伤害,让咱们互相伤害吧,教你4大类统计伤害方法

【1029】SCI审稿人让我控制2个单因素无意义的变量?

【1028】量表评价是信度重要还是效度重要?

【1027】Meta分析要解决的首要任务

【1026】文章材料与方法中统计方法如何描述

【1025】聚类分析稳定性判别的经验总结

【1023】“参数检验与非参数检验”哪个更好?

【1022】聚类分析只需这1张图就够了!

【1021】干预前后数据统计分析方法

【1020】听完四个小故事,你就明白主成分分析是啥意思了!

【1019】方差分析P>0.05,两两比较LSD法P<0.05,这可咋整?

【1018】倾向性评分后数据,应该采用配对设计还是成组设计?

【1017】双重差分模型,何方神圣?

【1016】等级与等比,可得分清楚!

【1015】频率与概率,如胶又似漆!

【1014】终于发现不用学习,顿悟统计的方法

【1013】加权最小二乘回归是什么鬼?

【1012】统计世界的4维空间

【1011】平行性检验到底应该啥时候做?

【1010】这篇文章凭啥这样分组呢?

【1009】常用统计分析方法选择图解

【1008】啥!统计也会犯错,还分犯I类和II类错误?

【1007】统计必学的4个核心思想

【1006】别说相关太简单,且听松哥说相关

【1005】统计方法与统计思想谁重要?

【1004】正态分布10种鉴别方法汇总【荐藏】

【1003】连续变量变成等级变量后,原来有意义的变量变得没意义了?

【1002】别人让我出了5道选择题,顺便你也测测!

【1001】SCI论文中的P for trend是什么鬼?为什么高分文章经常采用呢

-------------------------------------------

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存